垃圾帖和低质内容
用户生成内容网站会因优秀的内容而繁荣兴旺。对于我们访谈的很多用户生成内容公司,比如Community Connect和reddit,虚假内容是一个非常实际的问题,需要持续分析和大量的工程投入。除了算法和机器规则之外,谷歌和Facebook等公司雇用全职人员来过滤那些违法内容和可能引起不适的内容,这是一项繁重的工作。10 杰里米·埃德伯格估计reddit的开发中有50%的时间花在阻击垃圾帖和反投票作弊中,尽管在最初的18个月,用户投票足以阻止所有垃圾帖,并且当时并没有一个反垃圾保护机制。
10 http://www.buzzfeed.com/reyhan/tech-confessional-the-googler-who-looks-at-the-wo
垃圾信息发送者经常创建一次性账户,这是很容易侦测的。虽然劫持的账户更加难以检测,但是大部分用户生成内容网站允许用户标记出垃圾内容,这使得审查变得相对容易一些。即使自我管理的社区看起来可以获得成功,依赖用户也并不是找出劣质内容的好手段。reddit上许多帖子被标记为垃圾帖,这其实是垃圾发送者故意为之,以期通过标记所有人来提升他们自己的内容。杰里米说:“在reddit,我们不得不构建一个系统,来分析每个用户针对垃圾帖的报告的有效性(多少报告最后查实确是垃圾帖)。”
在reddit,自动的过滤器与人工的仲裁者配合能够找出大部分垃圾帖。2011年,其数量大约占用户总体提交内容的一半。“这50%的内容来自远远少于50%的用户。”杰里米说,“所有的反欺骗方法基本上都是这样开发出来的:先找到一个成功骗过系统的垃圾发送者,分析他为什么成功了,接着寻找语料库里类似的其他样例,然后建立一个模型来处理这种欺骗者。”
最后,垃圾帖也能反映网站的广告收入模型。“我们认为垃圾帖发送者试图通过欺骗让人看到他们的链接。为什么不让他们就此付费,然后让他们的链接明显看起来是付过费的?”杰里米回忆说,“如果你仔细看现在的赞助商链接,会看到它们的样式和制作与2008年左右谷歌的高亮赞助链接几乎一样。”
底线在哪里
做好心理准备。随着网站的人气上涨,你需要为阻击垃圾帖花费大量的时间和金钱。要尽早开始判断内容的好坏,以及哪些用户对于标示垃圾内容很在行——因为有效算法的关键是有大量数据可供训练。内容质量是用户满意度的一个主要指标,所以要密切注意内容质量的下降,在它还没有影响你的社区氛围时就要进行处理。